Philosophie Lexikon der Argumente

Home Screenshot Tabelle Begriffe

 
Statistisches Lernen: Beim statistischen Lernen werden Algorithmen und Modelle eingesetzt, um Daten zu analysieren und Vorhersagen zu treffen, die auf der Annahme beruhen, dass die vorliegenden Daten eine Stichprobe aus einer größeren Grundgesamtheit sind. Es umfasst Techniken wie Regression, Klassifizierung und Clustering und nutzt statistische Prinzipien, um sinnvolle Muster und Beziehungen aus Datensätzen zu extrahieren. Siehe auch Maschinenlernen, Daten, Klassifikation, Vorhersage, Verallgemeinerung, Induktion, Lernen, Künstliche Intelligenz, Algorithmen, Modelle.

_____________
Anmerkung: Die obigen Begriffscharakterisierungen verstehen sich weder als Definitionen noch als erschöpfende Problemdarstellungen. Sie sollen lediglich den Zugang zu den unten angefügten Quellen erleichtern. - Lexikon der Argumente.

 
Autor Begriff Zusammenfassung/Zitate Quellen

Peter Norvig über Statistisches Lernen – Lexikon der Argumente

Norvig I 825
Statistisches Lernen/Norvig/Russell: Statistische Lernmethoden reichen von der einfachen Berechnung von Durchschnittswerten bis hin zur Konstruktion komplexer Modelle wie Bayessche Netze. Sie werden in der gesamten Informatik, im Ingenieurwesen, in der computergestützten Biologie, in den Neurowissenschaften, in der Psychologie und in der Physik angewandt. ((s) Vgl. >Vorwissen/Norvig).
Bayessche Lernmethoden: formulieren Lernen als eine Form probabilistischer Inferenz, indem Sie die Beobachtungen nutzen, um eine frühere Verteilung über Hypothesen zu aktualisieren. Dieser Ansatz bietet eine gute Möglichkeit zur Implementierung von Ockhams Rasiermesser, wird aber für komplexe Hypothesenräume schnell unlösbar.
Maximales a posteriori (MAP) Lernen: wählt eine einzelne, angesichts der Daten wahrscheinlichste Hypothese aus. Die vorherige Hypothese wird nach wie vor verwendet und die Methode ist oft besser durchführbar als das vollständige Bayessche Lernen.
Lernen mit maximaler Wahrscheinlichkeit: wählt einfach die Hypothese aus, die die Wahrscheinlichkeit der Daten maximiert; sie entspricht dem MAP-Lernen mit einem einheitlichen Vorgänger. In einfachen Fällen wie bei der linearen Regression und vollständig beobachtbaren Bayesschen Netzwerken können Maximale-Wahrscheinlichkeits-Lösungen leicht in geschlossener Form gefunden werden. Das naive Bayes-Lernen ist eine besonders effektive Technik, die gut skaliert.
Versteckte Variablen/latente Variablen: Wenn einige Variablen verborgen sind, können mit Hilfe des EM-Algorithmus lokale Maximale-Wahrscheinlichkeits-Lösungen gefunden werden. Zu den Anwendungen gehören Clustering mit Mischungen von Gaussians, lernende Bayessche Netze und das Lernen verborgener Markov-Modelle.
Norvig I 823
EM-Algorithmus: Jeder dieser Algorithmen beinhaltet die Berechnung der erwarteten Werte der verborgenen Variablen für jedes Beispiel und die anschließende Neuberechnung der Parameter, wobei die erwarteten Werte so verwendet werden, als wären es Beobachtungswerte.
Norvig I 825
Das Erlernen der Struktur von Bayesschen Netzen ist ein Beispiel für die Modellauswahl. Dabei handelt es sich in der Regel um eine diskrete Suche im Raum der Strukturen. Eine Methode ist erforderlich, um die Modellkomplexität gegen den Grad der Anpassung abzuwägen.
Nichtparametrische Modelle: stellen eine Verteilung unter Verwendung der Sammlung von Datenpunkten dar. Die Anzahl der Parameter wächst also mit dem Trainingsset. Nearest-Neighbor-Methoden betrachten die den betreffenden Punkt am nächsten liegenden Beispiele, während Kernel-Methoden eine entfernungsgewichtete Kombination aller Beispiele bilden.
Geschichte: Die Anwendung statistischer Lerntechniken in der KI war in den frühen Jahren ein aktives Forschungsgebiet (siehe Duda und Hart, 1973)(1), wurde aber vom Mainstream der KI getrennt, da sich letzterer Bereich auf symbolische Methoden konzentrierte. Ein Wiederaufleben des Interesses trat kurz nach der Einführung der Bayesschen Netzwerkmodelle in den späten 1980er Jahren ein; ungefähr zur gleichen Zeit,
Norvig I 826
begann sich eine statistische Sichtweise des Lernens mit neuronalen Netzen herauszubilden.
In den späten 1990er Jahren gab es eine merkliche Annäherung der Interessen in den Bereichen maschinelles Lernen, Statistik und neuronale Netze, die sich auf Methoden zur Erstellung großer probabilistischer Modelle aus Daten konzentrierten.
Naives Bayes-Modell: ist eine der ältesten und einfachsten Formen des Bayesschen Netzwerks, die bis in die 1950er Jahre zurückreicht. Sein überraschender Erfolg wird teilweise durch Domingos und Pazzani (1997)(2) erklärt. Eine verstärkte Form des naiven Bayes-Lernens gewann den ersten Data-Mining-Wettbewerb des KDD-Cups (Elkan, 1997)(3). Heckerman (1998)(4) und bietet eine ausgezeichnete Einführung in das allgemeine Problem des Bayes-Netz-Lernens. Das Lernen von Bayesschen Parametern mit Dirichlet-Prioritäten für Bayessche Netzwerke wurde von Spiegelhalter et al. (1993)(5) diskutiert. Das Softwarepaket BUGS (Gilks et al., 1994)(6) enthält viele dieser Ideen und stellt ein sehr leistungsfähiges Werkzeug zum Formulieren und Lernen komplexer Wahrscheinlichkeitsmodelle dar. Die ersten Algorithmen zum Lernen von Bayes-Netzstrukturen verwendeten bedingte Unabhängigkeitstests (Pearl, 1988(7); Pearl und Verma, 1991(8)). Spirtes et al. (1993)(9) entwickelten einen umfassenden Ansatz, der im TETRAD-Paket für das Lernen von Bayes-Netzen verankert ist. Algorithmische Verbesserungen führten seitdem zu einem klaren Sieg im Data-Mining-Wettbewerb des KDD-Cups 2001 für eine Bayes-Netzlernmethode (Cheng et al., 2002)(10). (Die spezifische Aufgabenstellung war hier ein bioinformatisches Problem mit 139.351 Merkmalen!) Ein auf der Maximierung der Wahrscheinlichkeit basierender Struktur-Lernansatz wurde von Cooper und Herskovits (1992)(11) entwickelt und von Heckerman et al. (1994)(12) verbessert.
Mehrere algorithmische Fortschritte seit dieser Zeit haben zu einer recht respektablen Leistung im Fall der vollständigen Daten geführt (Moore und Wong, 2003(13); Teyssier und Koller, 2005(14)). Eine wichtige Komponente ist eine effiziente Datenstruktur, hier der AD-Baum, für die Zwischenspeicherung von Zählungen über alle möglichen Kombinationen von Variablen und Werten (Moore und Lee, 1997)(15). Friedman und Goldszmidt (1996)(16) wiesen auf den Einfluss der Darstellung lokaler bedingter Verteilungen auf die gelernte Struktur hin.
Versteckte Variablen/fehlende Daten: Das allgemeine Problem der Lernwahrscheinlichkeitsmodelle mit verborgenen Variablen und fehlenden Daten wurde von Hartley (1958)(17) behandelt, der die allgemeine Idee dessen, was später als EM bezeichnet wurde, beschrieb und mehrere Beispiele nannte. Weitere Impulse kamen vom Baum-Welch-Algorithmus für das HMM-Lernen (Baum und Petrie, 1966)(18), das ein Spezialfall der EM ist. Die Arbeit von Dempster, Laird und Rubin (1977)(19), die den EM-Algorithmus in allgemeiner Form vorstellte und seine Konvergenz analysierte, ist eine der meistzitierten Arbeiten sowohl in der Informatik als auch in der Statistik. (Dempster selbst betrachtet EM als ein Schema und nicht als einen Algorithmus, da möglicherweise eine Menge mathematischer Arbeit erforderlich ist, bevor es auf eine neue Familie von Verteilungen angewendet werden kann). McLachlan und Krishnan (1997)(20) widmen dem Algorithmus und seinen Eigenschaften ein ganzes Buch. Das spezifische Problem der Lernmischungsmodelle, einschließlich Mischungen von Gaussians, wird von Titterington et al. (1985)(21) behandelt. Innerhalb der KI war das erste erfolgreiche System, das EM für die Mischungsmodellierung verwendete, AUTOCLASS (Cheeseman et al., 1988(22); Cheeseman und Stutz, 1996(23)). AUTOCLASS wurde auf eine Reihe realer wissenschaftlicher Klassifikationsaufgaben angewandt, darunter die Entdeckung neuer Sterntypen aus Spektraldaten (Goebel et al., 1989)(24) und neuer Klassen von Proteinen und Intronen in DNA-/Proteinsequenzdatenbanken (Hunter und States, 1992)(25).
Parameter-Lernen mit maximaler Wahrscheinlichkeit: Für das Lernen von Parametern mit maximaler Wahrscheinlichkeit in Bayes-Netzen mit versteckten Variablen wurden EM und gradientenbasierte Methoden etwa zur gleichen Zeit von Lauritzen (1995)(26), Russell et al. (1995)(27) und Binder et al. (1997a)(28) eingeführt. Der strukturelle EM-Algorithmus wurde von Friedman (1998)(29) entwickelt und auf das maximale Wahrscheinlichkeitslernen von Bayes-Netzstrukturen mit
Norvig I 827
latente Variablen angewandt. Friedman und Koller (2003)(30) beschreiben das Bayessche Strukturlernen.
Kausalität/Kausalitätsnetz: Die Fähigkeit, die Struktur von Bayesschen Netzwerken zu erlernen, ist eng mit der Frage der Wiederherstellung kausaler Informationen aus Daten verbunden. Das heißt, ist es möglich, Bayessche Netze so zu lernen, dass die wiederhergestellte Netzstruktur echte kausale Einflüsse anzeigt? Viele Jahre lang sind Statistiker dieser Frage ausgewichen, da sie der Meinung waren, dass Beobachtungsdaten (im Gegensatz zu Daten, die aus experimentellen Versuchen gewonnen wurden) nur korrelierende Informationen liefern könnten - schließlich könnten zwei Variablen, die miteinander in Beziehung zu stehen scheinen, in Wirklichkeit von einem dritten, unbekannten kausalen Faktor beeinflusst werden, anstatt sich direkt zu beeinflussen. Pearl (2000)(31) hat überzeugende gegenteilige Argumente vorgebracht, die zeigen, dass es in der Tat viele Fälle gibt, in denen Kausalität festgestellt werden kann. Außerdem entwickelte er den Kausalnetzformalismus, um Ursachen und Wirkungen von Interventionen sowie gewöhnliche bedingte Wahrscheinlichkeiten auszudrücken.
Literatur über statistisches Lernen und Mustererkennung: Gute Texte zur Bayesschen Statistik sind die von DeGroot (1970)(32), Berger (1985)(33) und Gelman et al. (1995)(34). Bishop (2007)(35) und Hastie et al. (2009)(36) bieten eine ausgezeichnete Einführung in das statistische maschinelle Lernen.
Der einschlägigste Text für die Musterklassifikation ist seit vielen Jahren Duda und Hart (1973)(1), jetzt aktualisiert (Duda et al., 2001)(37). Die Jahrestagung der NIPS (Neural Information Processing Conference), deren Berichte in der Reihe "Advances in Neural Information Processing Systems" veröffentlicht werden, wird inzwischen von Bayesschen Arbeiten dominiert. Artikel über lernende Bayessche Netzwerke erscheinen auch in der "Uncertainty in AI" und in Konferenzen zu maschinellem Lernen sowie in mehreren Statistik-Konferenzen. Zu den Zeitschriften, die sich speziell mit neuronalen Netzen befassen, gehören "Neural Computation", "Neural Networks" und die "IEEE Transactions on Neural Networks".


1. Duda, R. O. and Hart, P. E. (1973). Pattern classification and scene analysis. Wiley.
2. Domingos, P. and Pazzani, M. (1997). On the optimality of the simple Bayesian classifier under zero-one loss. Machine Learning, 29, 103–30.
3. Elkan, C. (1997). Boosting and naive Bayesian learning. Tech. rep., Department of Computer Science
and Engineering, University of California, San Diego.
4. Heckerman, D. (1998). A tutorial on learning with Bayesian networks. In Jordan, M. I. (Ed.), Learning in graphical models. Kluwer.
5. Spiegelhalter, D. J., Dawid, A. P., Lauritzen, S., and Cowell, R. (1993). Bayesian analysis in expert systems. Statistical Science, 8, 219–282.
6. Gilks, W. R., Thomas, A., and Spiegelhalter, D. J. (1994). A language and program for complex
Bayesian modelling. The Statistician, 43, 169–178.
7. Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann.
8. Pearl, J. and Verma, T. (1991). A theory of inferred causation. In KR-91, pp. 441–452.
9. Spirtes, P., Glymour, C., and Scheines, R. (1993). Causation, prediction, and search. Springer-Verlag.
10. Cheng, J., Greiner, R., Kelly, J., Bell, D. A., and Liu, W. (2002). Learning Bayesian networks from data: An information-theory based approach. AIJ, 137, 43–90.
11. Cooper, G. and Herskovits, E. (1992). A Bayesian method for the induction of probabilistic networks from data. Machine Learning, 9, 309–347.
12. Heckerman, D., Geiger, D., and Chickering, D. M. (1994). Learning Bayesian networks: The combination of knowledge and statistical data. Technical report MSR-TR-94-09, Microsoft Research.
13. Moore, A. and Wong, W.-K. (2003). Optimal reinsertion: A new search operator for accelerated and more accurate Bayesian network structure learning. In ICML-03.
14. Teyssier, M. and Koller, D. (2005). Ordering-based search: A simple and effective algorithm for learning Bayesian networks. In UAI-05, pp. 584–590.
15. Moore, A. W. and Lee, M. S. (1997). Cached sufficient statistics for efficient machine learning with large datasets. JAIR, 8, 67–91.
16. Friedman, N. and Goldszmidt, M. (1996). Learning Bayesian networks with local structure. In UAI-96, pp. 252–262.
17. Hartley, H. (1958). Maximum likelihood estimation from incomplete data. Biometrics, 14, 174–194.
18. Baum, L. E. and Petrie, T. (1966). Statistical inference for probabilistic functions of finite state
Markov chains. Annals of Mathematical Statistics, 41.
19. Dempster, A. P., Laird, N., and Rubin, D. (1977). Maximum likelihood from incomplete data via the
EM algorithm. J. Royal Statistical Society, 39 (Series B), 1–38.
20. McLachlan, G. J. and Krishnan, T. (1997). The EM Algorithm and Extensions. Wiley.
21. Titterington, D. M., Smith, A. F. M., and Makov, U. E. (1985). Statistical analysis of finite mixture distributions. Wiley.
22. Cheeseman, P., Self, M., Kelly, J., and Stutz, J. (1988). Bayesian classification. In AAAI-88, Vol. 2,
pp. 607–611.
23. Cheeseman, P. and Stutz, J. (1996). Bayesian classification (AutoClass): Theory and results. In
Fayyad, U., Piatesky-Shapiro, G., Smyth, P., and Uthurusamy, R. (Eds.), Advances in Knowledge Discovery and Data Mining. AAAI Press/MIT Press.
24. Goebel, J., Volk, K., Walker, H., and Gerbault, F. (1989). Automatic classification of spectra from the infrared astronomical satellite (IRAS). Astronomy and Astrophysics, 222, L5–L8.
25. Hunter, L. and States, D. J. (1992). Bayesian classification of protein structure. IEEE Expert, 7(4),
67–75.
26. Lauritzen, S. (1995). The EM algorithm for graphical association models with missing data. Computational Statistics and Data Analysis, 19, 191–201.
27. Russell, S. J., Binder, J., Koller, D., and Kanazawa, K. (1995). Local learning in probabilistic networks with hidden variables. In IJCAI-95, pp. 1146–52.
28. Binder, J., Koller, D., Russell, S. J., and Kanazawa, K. (1997a). Adaptive probabilistic networks with hidden variables. Machine Learning, 29, 213–244.
29. Friedman, N. (1998). The Bayesian structural EM algorithm. In UAI-98.
30. Friedman, N. and Koller, D. (2003). Being Bayesian about Bayesian network structure: A Bayesian approach to structure discovery in Bayesian networks. Machine Learning, 50, 95–125.
31. Pearl, J. (2000). Causality: Models, Reasoning, and Inference. Cambridge University Press.
32. DeGroot, M. H. (1970). Optimal Statistical Decisions. McGraw-Hill.
33. Berger, J. O. (1985). Statistical Decision Theory and Bayesian Analysis. Springer Verlag.
34. Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. (1995). Bayesian Data Analysis. Chapman & Hall.
35. Bishop, C. M. (2007). Pattern Recognition and Machine Learning. Springer-Verlag.
36. Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning: Data Mining,
Inference and Prediction (2nd edition). Springer- Verlag.
37. Duda, R. O., Hart, P. E., and Stork, D. G. (2001). Pattern Classification (2nd edition). Wiley.


_____________
Zeichenerklärung: Römische Ziffern geben die Quelle an, arabische Ziffern die Seitenzahl. Die entsprechenden Titel sind rechts unter Metadaten angegeben. ((s)…): Kommentar des Einsenders. Übersetzungen: Lexikon der Argumente
Der Hinweis [Begriff/Autor], [Autor1]Vs[Autor2] bzw. [Autor]Vs[Begriff] bzw. "Problem:"/"Lösung", "alt:"/"neu:" und "These:" ist eine Hinzufügung des Lexikons der Argumente.

Norvig I
Peter Norvig
Stuart J. Russell
Artificial Intelligence: A Modern Approach Upper Saddle River, NJ 2010

Send Link
> Gegenargumente gegen Norvig
> Gegenargumente zu Statistisches Lernen ...

Autoren A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Y   Z  


Begriffe A   B   C   D   E   F   G   H   I   J   K   L   M   N   O   P   Q   R   S   T   U   V   W   Z